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E 一 种 以 人 工 神经 网 络 为 架构 ， 对 数据 进行 
I 时 实现 人 们 对 于 复杂 事务 处 理 的 自动 化 要 求 。 
在 计算 机 视觉 和 语音 识别 中 ， 成 为 各 种 领先 系统 的 一 部 
表 型 分 析 、 植 物 养分 含量 估计 、 病 虫草 害 识别 、 基 于 遥感 图 
动物 行为 识别 和 分 类 ， 以 及 生物 信息 分 析 等 领域 ， 且 分 析 结 果 比 传统 
预见 ， 深 度 学 习 技 术 将 会 在 农业 领域 加 速 渗透 ， 大 放 异彩 。 


深度 学 习 在 植物 基因 组 学 与 作物 育种 中 的 
应 用 现状 与 展望 
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A 摘 ”要 ; [目的 /意义 ] 随 着 单 细胞 测序 、 高 通 量 技术 的 突破 ， 植 物 基 因 组 学 也 取得 了 巨大 进步 ， 可 以 低 成 本 获取 多 维 全 基因 
N 组 分 椰 表 型 的 海量 数据 。 深 度 学 习 技 术 可 以 作为 强大 的 数据 挖掘 工具 对 获取 的 分 子 表 型 进行 进一步 预测 和 解释 。 当 前 研究 表 
> 明 ， 深 度 学 习 在 植物 基因 组 学 与 作物 育种 研究 任务 中 取得 显著 效果 。 但 目前 尚 缺 乏 对 于 深度 学 习 在 植物 基因 组 学 中 应 用 的 完 
x< ERAN. [方法 / 过 程 ] 本 文 首先 概述 了 深度 学 习 方法 背景 ， 包 括 最 新 的 图 神经 网 络 ; 随后 着 重 从 基因 特性 、 蛋 白质 特性 方面 
E 综述 了 基因 组 学 和 深度 学 习 交 叉 领域 的 两 个 突出 问题 : 1) 如 何 对 从 植物 基因 组 DNA 序列 到 分 子 表 型 的 信息 流 进行 建 模 ? 
c 2) 如 何 使 用 深度 学 习 模 型 识别 自然 种 群 中 的 功能 变异 ? [结果 / 结论 ] 本 文 总 结 了 当前 研究 中 如 何 应 用 传统 深度 学 习 算 法 、 图 
Q 深度 学 习 、 生 成 对 抗 网 络 以 及 可 解释 性 AT 等 方法 解决 上 述 两 个 问题 。 最 后 分 析 了 深度 学 习 在 未 来 植物 基因 组 学 研究 和 作物 遗 
和 专 改良 中 的 发 展 前 景 。 
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植物 基因 组 学 分 析 与 育种 的 研究 目标 是 对 植物 全 
生命 周期 的 信息 流 进 行 研究 。 该 信息 流 从 基因 组 DNA 
序列 分 析 开 始 ， 并 在 植物 表 型 研究 或 作物 物种 、 农 艺 
性 状 等 方面 的 研究 结束 。 介 于 基因 层面 和 植物 表 型 层 
面 信息 之 间 的 是 通过 转录 和 翻译 传递 的 信息 流 ， 这 就 
是 弗朗西斯 . 克 里 克 (FRANCIS) 提出 的 “分 子 生 物 学 
中 心 法 则 ” 巴 。 中 心 法 则 中 的 每 一 步 都 不 仅 可 以 看 作 是 
传递 ， 还 可 以 看 作 是 前 一 步 遗传 信息 的 转化 。 所 涉及 
的 分 子 特征 统称 为 “分 子 表 型 "， 以 将 它们 与 终端 特征 
区 分 开 来 。 随 着 单 细 胞 测序 、 高 通 量 测序 技术 的 突破 ， 
植物 基因 组 学 、 转 录 组 学 、 和 蛋白 组 学 、 代 谢 组 学 等 生 
物 多 组 学 也 取得 了 巨大 进步 ， 可 以 大 规模 低 成 本 地 获 
取 参 与 信息 传递 的 多 维 分 子 表 型 ， 包括 DNA, RNA 和 
和 蛋白质 中 元 素 的 结构 、 修 饰 、 功 能 和 进化 ， 以 及 它们 
之 间 的 相互 作用 。 海 量 生 物 组 表 型 数据 进一步 促进 了 
基于 中 心 法 则 的 信息 传输 和 转换 的 细 粒 度 剖 析 。 对 植 
物 信息 流 的 全 方位 研究 对 于 基因 组 学 基础 研究 和 作物 
改良 都 有 重大 意义 ， 例 如 研究 识别 与 特定 表 型 变异 
(人 工 诱 变 或 自然 变异 ) 相关 的 基因 组 变异 或 者 两 者 之 
间 的 因果 关系 。 然 而 ,分子 表 型 中 的 丰富 信息 在 很 大 
程度 上 尚未 得 到 有 效 探索 ， 这 使 得 从 DNA 序列 到 植物 
表 型 的 端 到 端 机 制 理 解 变 得 很 困难 。 

随 着 深度 学 习 与 大 数据 技术 的 快速 发 展 ， 开 启 了 
分 子 表 型 和 植物 表 型 研究 的 智能 化 研究 时 代 。 例 如 ， 
通过 深度 学 习 的 关联 分 析 ， 可 进行 全 转录 组 关联 研 
究 (TWAS)， 具 有 更 短 的 信息 传递 路 径 和 更 少 的 信息 
转换 步骤 名 。 此 外 通过 深度 学 习 模 型 可 以 直接 从 上 游 分 
子 表 型 或 从 基因 组 DNA 序列 预测 分 子 表 型 m。 本 研究 
在 概述 深度 学 习 概 念 方法 的 基础 上 ， 对 近年 来 深度 学 
习 在 分 子 表 型 建 模 与 变异 研究 的 应 用 场景 和 最 新 进展 
进行 总 结 、 概 括 和 分 析 。 同 时 ， 分 析 了 深度 学 习 方 法 
在 作物 遗传 改良 中 的 应 用 ， 以 期 为 相关 研究 人 员 提 供 
参考 。 
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深度 学 习 本 质 上 是 基于 线性 回归 和 一 些 激 活 函 数 
的 诸多 分 类 器 协同 工作 。 深 度 学 习 中 有 很 多 神经 节点 ， 
而 不 是 传统 统计 学 习 中 只 有 一 个 线性 回归 节点 。 在 深 
度 学 习 中 ， 输 入 和 输出 之 间 有 很 多 层 。 输 入 和 输出 之 
间 的 层 称 为 隐藏 层 ， 节 点 称 为 隐藏 节点 。 神 经 网 络 中 
的 一 个 重要 因素 是 受 人 类 神经 激发 启发 的 激活 函数 ， 
用 于 生成 输入 和 输出 之 间 的 非 线性 关系 。 常 用 的 激活 
函数 例如 Sigmoid, Hyperbolic Tangent、ReLU。 激 活 
函数 的 作用 是 将 数据 转换 和 抽象 成 一 个 更 可 分 类 的 平 
面 。 深 度 学 习 分 类 器 需要 借助 梯度 下 降 等 数学 工具 来 
学 习 参 数 ， 尤 其 是 在 学 习 凸 函数 参数 时 效果 显著 。 学 
习 是 通过 最 小 化 预测 值 和 实际 值 之 间 的 误差 来 完成 的 。 
本 研究 重点 对 深度 学 习 的 主流 模型 的 架构 和 特征 进行 
介绍 ， 包 括 自 动 编码 器 、 卷 积 神经 网 络 、 循 环 神经 网 
络 、 生 成 对 抗 网 络 以 及 图 神经 网 络 等 。 


2.2 自动 编码 器 (AE) 


自动 编码 器 (AutoEncoder) 主要 由 编码 器 、 解 码 
器 和 隐藏 层 组 成 。 自 动 编码 器 首先 对 输入 信和 号 进行 编 
码 ， 然 后 使 用 编码 信号 重建 初始 信号 。 该 编码 信号 可 
以 最 小 化 初始 信号 和 重 构 信 号 之 间 的 误差 。 在 编码 和 
重 构 的 过 程 中 ， 编 码 器 将 输入 数据 映射 到 特定 的 特征 
空间 。 解 码 需 将 编码 信号 的 特征 映射 回 数据 空间 ， 然 
后 重 构 初 始 数 据 。 自 动 编码 器 的 3 个 重要 变 体 包括 : 
稀 琉 自动 编码 器 (Sparse Auto Encoder，SAE) 、 去 噪 
自动 编码 器 (Denoising Auto Encoder, DAE) 和 收缩 
自动 编码 器 (Contractive Auto Encoder, CAE), 


2.3 卷 积 神经 网 络 (CNN) 


卷 积 神经 网 络 具有 共享 权限 的 网 络 结 构 ， 可 以 有 
效 降低 网 络 模型 的 复杂 度 ， 同 时 也 减少 了 权重 的 数量 。 
人 处理 高 维 图 像 效 率 更 高 ， 可 以 直接 将 图 像 作为 整个 网 
络 的 输入 ， 有 效 避 免 传 统 算法 复杂 的 特征 提取 和 重 构 。 
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作为 一 个 多 层 神 经 网 络 ， 卷 积 神经 网 络 结构 中 的 每 一 
层 由 若干 个 二 维 平面 组 成 ， 每 个 平面 都 有 独立 的 神经 
元 。 卷 积 神经 网 络 结构 主要 依靠 共享 权重 、 局 部 滑动 
窗口 、 下 采样 来 保证 输入 数据 的 不 变性 。 卷 积 神经 网 
络 的 训练 过 程 分 为 两 个 阶段 。 第 一 阶段 是 前 向 训练 阶 
段 ， 由 3 个 步骤 组 成 : 根据 给 定 的 样本 集 随机 选择 样 
本 ; 将 样本 作为 初始 数据 放 入 网 络 ; 计算 相应 的 输出 
数据 。 第 二 阶段 是 反 向 传播 阶段 ， 包 括 两 个 步骤 : 计 
算 理 想 数 据 信 息 与 输出 数据 信息 的 差 值 ;根据 反 向 传 
输 的 误差 最 小 化 方法 调整 权重 矩阵 。 


2.4 循环 神经 网 络 (RNN) 


与 传统 的 神经 网 络 不 同 ，RNN 利用 了 网 络 中 的 序 
列 信息 。 这 一 特性 在 许多 应 用 中 是 至 关 重 要 的 ， 包 括 
DNA 序列 。 在 这 些 应 用 中 ， 数 据 序列 中 的 误 和 人 式 结构 
传达 了 有 用 的 知识 。RNN 学 习 方 式 通过 使 用 特定 形式 
的 存储 需 来 模拟 学 习 的 知识 随时 间 的 动态 变化 ， 不 仅 
分 析 当 前 的 输入 ， 而 且 对 前 序 内 容 具备 记忆 能 力 。 一 
个 RNN 可 以 被 看 作 是 短期 记忆 单元 ， 包 括 输 入 层 x、 
隐藏 (状态 ) 层 s 和 输出 层 y， 包 括 深度 “输入 到 隐 
藏 ”“ 隐 藏 到 输出 ”和 “隐藏 到 隐藏 ”3 种 模式 。 
RNN 的 一 个 主要 问题 是 它 对 梯度 消失 和 爆炸 的 敏感 
性 。 由 于 在 训练 过 程 中 大 量 的 小 导数 或 大 导数 的 乘法 ， 
梯度 可 能 会 衰减 或 爆炸 。 这 种 敏感 性 随 着 时 间 的 推移 
而 降低 ， 意 味 着 网 络 随 着 新 输入 的 进入 而 忘记 了 最 初 
的 输入 。 因 此 ，LSTM 被 用 来 处 理 这 个 问题 ， 在 其 递 
归 连 接 中 提供 记忆 块 。 每 个 记忆 块 包 括 存储 网 络 时 间 
状态 的 记忆 单元 ， 以 及 控制 信息 流 的 门 探 单元 。 


2.5 生成 对 抗 网 络 (GAN) 


生成 对 抗 网 络 是 基于 博弈 论 的 生成 模型 类 。 生 成 
对 抗 网 络 没 有 明确 地 对 数据 分 布 进行 建 模 ， 而 是 从 中 
对 样本 进行 建 模 。 通 过 深度 神经 网 络 进行 采样 ， 神 经 
网 络 将 随机 噪声 作为 输入 ， 并 将 其 转化 为 模型 分 布 。 
生成 对 抗 网 络 由 两 个 神经 网 络 组 成 : 一 种 称 为 生成 器 ; 
另 一 种 称 为 鉴别 器 。 这 个 模型 被 称 为 对 抗 模 型 ， 因 为 
生成 器 不 断 地 试图 坎 骗 鉴别 器 ， 让 其 相信 输入 来 自 训 
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练 数据 〈 真 实数 据 ) ， 而 鉴别 器 总 是 区 分 两 者 。 这 两 个 
神经 网 络 试图 相互 对 抗 。 在 获取 这 两 个 输入 后 ， 误 差 
函数 输出 特定 样本 是 真 的 还 是 假 的 概率 ， 用 于 训练 生 
成 器 和 鉴别 器 的 权重 。 


2.6 图 深度 学 习 (GNN) 


深度 学 习 或 传统 机 器 学 习 仅 以 向 量 的 形式 考虑 欧 
几 里 得 平面 中 的 数据 ， 例 如 图 像 、 音 频 等 。 然 而 ， 图 
数据 集 具 有 以 下 4 个 不 同 特征 ， 导 致 传统 机 器 学 习 方 
法 和 深度 学 习 方 法 在 图 数据 领域 应 用 的 失效 。 

(1) 不 规则 域 图 表示 不 规则 域 或 非 欧 几 里 得 数据 ， 
并 不 能 像 图 像 和 音频 一 样 ， 可 以 很 容易 地 在 欧 几 里 得 
平 。 面 或 网 格 状 结构 中 表示 。 导 致 许多 数学 运算 不 能 
直接 应 用 于 图 数据 。 

(2) 韭 静 态 结构 。 图 可 能 具有 不 同 的 形状 和 结构 ， 
例如 齐 次 、 非 齐 次 、 有 符号 、 无 符号 图 等 。 图 的 细 粒 
度 可 以 以 节点 为 中 心 〈 即 链接 预测 、 节 点 排名 等 ) 、 或 
者 以 图 为 中 心 (例如 图 生成 、 图 分 类 等 ) 等 。 最 常用 
的 图 表示 方法 是 使 用 邻接 矩阵 。 由 于 添加 或 删除 节点 
后 其 形状 会 发 生变 化 。 

(3) 可 扩展 性 和 并 行 化 。 图 可 能 有 数 百 万 个 节点 
和 数 十 亿 条 边 ， 庞 大 的 数据 成 为 传统 深度 学 习 模 型 训 
练 的 障碍 ， 尤 其 是 具有 许多 节点 和 隐藏 层 的 模型 。 同 
时 由 于 图 中 的 每 个 节点 都 携带 一 些 关 于 图 中 其 他 节点 
的 信息 ， 算 法 并 行 化 也 面临 很 多 挑战 。 

(4) 领域 特定 知识 。 在 图 上 学 习 可 能 还 需要 了 解 
领域 特定 知识 。 例 如 “药物 - 靶 标 ”相互 作用 预测 任 
务 ， 其 中 药物 化 学 分 子 结构 可 能 有 助 于 更 好 地 预测 。 
其 他 额外 信息 可 能 有 助 于 将 药物 副作用 作为 特征 进行 
预测 。 

图 神经 网 络 是 一 种 输入 为 图 数据 而 不 是 向 量 的 神 
经 网 络 。 它 学 习 表 示 每 个 节点 的 特征 ， 进 一 步 生 成 的 
特征 可 以 用 于 任何 与 图 相关 的 问题 ， 例 如 节点 分 类 、 
图 分 类 、 聚 类 等 。 每 个 节点 的 特征 包含 节点 本 里 的 特 
征 与 其 邻居 节点 信息 。 

当前 基于 图 神经 网 络 ， 开 发 了 许多 衍生 的 深度 学 
习 模 型 ， 例 如 图 卷 积 神经 网 络 (GCN) 和 GaphSage 
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等 。 图 卷 积 神经 网 络 分 3 步 运行 : 卷 积 核 、 池 化 和 
Flattening。 

根据 图 神经 网 络 中 的 不 同 核 函 数 ， 可 将 图 卷 积 神 
经 网 络 分 为 两 种 类 型 : 空间 方法 。 这 类 卷 积 运算 不 
需要 图 的 特征 值 。 典 型 的 工作 包括 GAT 和 GaphSage。 
四 谱 方法 。 这 类 方法 基于 特征 值 ， 考 虑 了 整个 图 结构 
以 及 各 个 图 组 件 。 


2.7 深度 神经 网 络 可 解释 性 


可 解释 人 工 智 能 (Explainable AI, XAI) 是 以 可 理 

解 的 方式 向 人 类 解释 ， 并 呈现 智能 系统 行为 与 决策 的 
新 一 代 人 工 智 能 。 近 年 来 ， 从 模型 内 外 2 个 角度 对 
XAI 模型 的 可 解释 问题 提出 了 两 大 解决 方案 ， 包 括 
“模型 自身 可 解释 ”和 “模型 以 外 可 解释 "。 前 者 是 通 
过 直接 设计 具有 内 在 可 解释 性 的 算法 实现 模型 的 可 解 
释 功 能 ， 包 括 线性 回归 、 逻 辑 回归 在 内 的 广义 线性 模 
型 ， 以 及 梯度 增强 机 、 随 机 和 森林、 极端 梯度 提升 在 内 
的 树 集成 模型 ， 后 者 将 模型 预测 与 解释 分 开 ， 主 要 包 
括 可 视 化 解释 、 影 响 方法 、 基 于 实例 的 解释 、 基 于 知 
识 的 解释 4 种 技术 类 型 。 
可 视 化 解释 是 探寻 深度 神经 网 络 等 复杂 模型 内 部 
工作 机 制 最 直接 的 途径 ， 其 技术 方法 主要 包括 : 代理 
模型 、 部 分 依赖 图 (Partial Dependence Plot，PDP) 和 个 
体 条 件 期 望 (Individual Conditional Expectation, ICE), 
代理 模型 即 用 来 解释 复杂 模型 的 简单 模型 ， 虽 然 计 算 
量 小 ， 但 其 计算 结果 和 高 精度 模型 的 计算 分 析 结 果 相 
近 。PDP 是 一 种 图 形 表 示 ， 有 助 于 可 视 化 特定 特征 对 
机 器 学 习 模 型 预测 结果 的 平均 边际 影响 。ICE 是 一 种 
与 PDP 类 似 的 图 形 表示 ， 能 深入 到 单个 样本 ， 分 析 某 
一 特征 变化 对 单个 样本 的 影响 ， 并 给 出 每 个 样本 的 预 
测 值 。 影 响 方法 通过 更 改 模型 输入 或 内 部 参数 来 评估 
寺 征 的 重要 性 或 相关 性 ， 并 记录 特征 更 改 对 模型 性 能 的 
影响 程度 ， 以 解释 模型 决策 。 影 响 方法 主要 有 敏感 性 分 
析 、 层 级 相关 性 传播 和 特征 重要 性 3 种 。 敏 感性 分 析 通 
过 使 每 个 特征 在 可 能 的 范围 内 变动 来 预测 这 些 特征 的 变 
化 对 模型 输出 值 的 影响 程度 。 层 级 相关 性 传播 将 模型 决 
策 的 重要 性 信号 从 模型 的 输出 层 神经 元 逐 层 传播 到 模型 
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的 输入 层 ， 使 模型 的 决策 结果 可 在 特征 上 找到 解释 ， 得 
到 每 个 特征 参与 分 类 决策 的 贡献 大 小 。 特 征 重要 性 则 是 
通过 改变 特征 值 ， 计 算 模 型 预测 误差 的 变化 ， 从 而 量化 
每 个 输入 变量 对 模型 预测 结果 的 贡献 。 基 于 实例 的 解释 
技术 通过 选择 数据 集 的 特定 实例 来 解释 AI 模型 的 行 
为 ， 包 括 原型 和 批评 解释 ， 以 及 反 事 实 解释 。 原 型 是 指 
从 数据 集中 选择 的 具有 代表 性 的 实例 ， 数 据 集中 的 实例 
关系 是 由 与 原型 的 相似 性 决定 的 。 为 了 避免 过 度 泛 化 ， 
数据 集 也 需要 展示 批评 点 ， 即 不 能 被 一 组 原型 有 效 代表 
的 实例 。 模 型 可 预测 原型 和 批评 的 结果 ， 以 解释 模型 决 
策 ， 并 发 现 模型 算法 的 弱点 。 反 事实 解释 描述 了 一 种 因 
果 关 系 ， 即 “如 果 没 有 输入 特征 和 ， 则 预测 结果 了 不 
会 发 生 ”， 通 过 对 原始 实例 的 输入 特征 进行 最 小 条 件 的 
更 改 ， 以 获得 不 同 预定 输出 结果 的 新 实例 ， 从 而 解释 模 
型 的 决策 行为 。LIME 方法 对 模型 进行 局 部 可 解释 性 分 
析 。 该 方法 通过 扰动 图 片 中 的 像素 块 观察 模型 预测 性 能 
的 变化 ， 如 果 模 型 预测 性 能 下 降 ， 证 明 所 删除 的 像素 块 
是 一 个 重要 特征 ， 实 现 对 模型 决策 过 程 的 解释 。 基 于 
Grad-CAM 的 CNN 可 解释 方法 ， 利 用 加 权 梯 度 类 激活 
映射 显示 出 图 像 中 对 结果 产生 重要 影响 的 区 域 。 基 于 知 
识 的 解释 主要 包括 提取 内 部 知识 和 引入 外 部 知识 的 解释 
方法 。 目 前 ， 基 于 知识 提取 的 方法 主要 包括 知识 蒸馏 
知识 图 谱 。 知 识 蒸馏 是 一 种 降低 模型 复杂 度 的 模型 压 
缩 方法 ， 可 将 信息 从 深层 网 络 传递 到 浅 层 网 络 。 
当主 要 目的 不 仅 是 准确 预测 而 且 是 解释 生物 规则 
时 ， 机 器 学 习 模 型 的 可 解释 性 和 量化 特征 重要 性 对 植 
物 生物 学 研究 来 说 变 得 至 关 重 要 。 例 如 ， 在 从 植物 基 
因 组 准确 预测 表 型 的 同时 ， 探 究 每 个 核 音 酸 的 影响 也 
非常 重要 。 虽 然 深度 学 习 提供 了 高 精度 的 预测 ， 但 有 
时 深度 学 习 模 型 难以 解释 ， 这 对 于 探索 生物 过 程 的 推 
理 至 关 重 要 。 为 了 构建 更 多 可 解释 的 模型 ，SHAP 
(SHApley Additive exPlanations) 为 每 个 特征 分 配 一 个 
特定 预测 的 重要 性 值 。DeepLIFT (深度 学 习 重 要 特征 ) 
分 解 神经 网 络 对 特定 输入 的 输出 预测 ， 以 定义 重要 特 
征 。 出 于 类 似 的 目的 ， 集 成 梯度 旨 在 将 深度 网 络 的 预 
测 归 因 于 其 输入 特征 。 另 一 方面 ， 编 码 生 物 特征 的 选 
择 在 可 解释 性 中 也 起 着 关键 作用 。 最 后 ， 在 运行 模型 


2022 年 第 34 卷 第 8 期 


202303.10405v1 


chinaXiv 


或 解释 结果 之 前 ， 考 虑 测 
出 现 的 错误 也 很 重要 。 


量 错误 或 数据 集 提交 过 程 中 


3 深度 神经 网 络 在 植物 基因 组 学 中 应 
用 的 一 般 流程 


根据 数据 标注 情况 可 以 分 为 两 大 类 : 有 监督 和 无 
监督 的 深度 神经 网 络 。 监 督学 习 的 目的 是 获得 一 个 模 
型 ， 将 其 预测 变量 (如 DNA 序列 ) 映射 到 目标 变量 
(如 组 蛋白 标记 )。 目 标 变 量 可 以 是 分 类 的 (分类) 或 
连续 的 (回归 )。 如 果 数 据 集 中 没有 关于 分 类 标签 的 标 
注 ， 即 为 无 监督 学 习 ， 包 括 聚 类 和 特征 提取 。 

深度 学 习 应 用 于 基因 组 学 的 输入 通常 为 将 生物 序 
列 和 分 子 表 型 分 别 作为 预测 变量 和 目标 变量 ， 其 工作 
流程 通常 包括 4 个 步骤 ， 如 图 1 所 示 。 

(1) 输入 数据 预 处 理 。 主 要 包括 生物 序列 的 检索 
和 编码 、 分 子 表 型 的 数字 或 分 类 表示 ， 以 及 将 预测 
“因子 - 目标 ”对 正确 拆 分 为 训练 、 验 证 和 测试 集 ， 通 
常 采 用 生物 序列 之 间 的 进化 关系 作为 依据 。 

(2) 模型 构建 和 训练 。 主 要 包括 模型 架构 和 超 参 
数 的 选择 以 及 在 训练 集 上 训练 模型 。 在 训练 期 间 应 持 
续 监 控 模 型 在 验证 集 上 的 性 能 ， 以 确定 何 时 停止 模型 
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训练 以 避免 从 拟 合 和 过 拟 合 。 

(3) 模型 评估 。 评 估 训 练 模型 在 另 一 个 数据 集 上 
的 性 能 ， 称 为 测试 集 。 用 于 衡量 模型 性 能 的 指标 取决 
于 目标 变量 的 性 质 : ROC 曲线 下 面积 (auROC) 常用 
于 分 类 问题 ，R-squared 常用 于 回归 问题 。 

(4) 通过 显著 性 或 特征 归 因 方法 获取 模型 可 解释 
性 以 识别 生物 序列 中 的 功能 元 素 。 


4 深度 学 习 在 植物 基因 组 学 与 作物 育 
种 方面 的 应 用 


4.1 深度 学 习 与 DNA 和 基因 特性 研究 


深度 学 习 已 应 用 于 大 规模 数据 分 析 的 多 个 领域 ， 
以 解决 基因 组 学 、 转 录 组 学 、 蛋 白质 组 学 、 代 谢 组 学 
和 系统 生物 学 中 的 复杂 生物 学 问题 由 。 当 前 研究 表明 ， 
DNA 形状 在 决定 转录 因子 (TF) DNA 结合 特异 性 方面 
起 着 重要 作用 中 。 深 度 学 习 模 型 可 以 使 用 大 量 数据 类 型 ， 
包括 染色 质 可 及 性 分 析 (例如 MNase-seq, DNase-seq, 
FAIRE) 和 其 他 基因 组 分 析 (例如 微 阵 列 、RNA-seq 表 
达 )。 同 样 ， 对 于 转录 因子 TF 结合 ， 存 在 ChIP-seq 
数据 、 基 因 表达 谱 、DAP-seq (DNA 亲 和 纯 化 测序 ) 
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图 1 深度 神经 网 络 在 植物 基因 组 学 中 应 用 的 一 般 流程 


Fig.1 General process of deep neural network application in plant genomics 
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和 ampDAP-seq， 通 过 使 用 扩 增 并 去 甲 基 化 的 DNA 作 
为 底 物 和 组 蛋白 修饰 来 了 解 基因 表达 的 潜在 机 制 @。 为 
了 分 析 这 些 大 规模 数据 集 ， 当 前 有 诸多 深度 学 习 方法 
来 模拟 TF-DNA 结合 特异 性 。 为 了 预测 TF 结合 特性 ， 
当前 也 有 基于 深度 学 习 的 方法 。 例 如 ， 了 解 DNA 和 
RNA 结合 蛋白 的 序列 特异 性 对 于 开发 生物 系统 中 的 调 
控 过 程 模 型 和 识别 致 病变 体 至 关 重 要 "。 

DeepBind™!, DeepSEA"!Ail Basset”, zé H HEJH 
于 基因 组 数据 的 卷 积 神经 网 络 (CNN), TE DeepBind 
中 ,训练 了 多 个 单 任 务 模型 (参数 的 中 位 数 为 1 586) 
来 预测 转录 因子 的 体外 和 体内 结合 亲和力 ( 即 结合 或 
未 结合 ) 和 转录 因子 的 体外 结合 亲和力 。 该 方法 始终 
比 现 有 的 非 深 度 学 习 方法 表现 更 好 。DeepSEA 模型 
(52843119 个 参数 ) 从 DNA 元 素 百 科 全 书 (ENCODE) 
和 Roadmap Epigenomics 项 目 编译 了 919 个 2.4M 非 编 
码 变 体 的 染色 质 图 ， 并 测 了 919 个 染色 质 特征 (人 类 
GRCh37 基因 组 ) 的 存在 与 否 ， 包 括 转录 因子 结合 、 
DNA 可 及 性 和 给 定 1 000BP 序列 的 组 蛋白 修饰 。Basset 
(4135 064 个 参数 ) 在 给 定 600bp 序列 的 情况 下 预测 了 
164 个 二 值 化 DNA 可 访问 性 特征 。DeepBind 可 以 学 习 
几 个 基 序 来 预测 DNA 和 RNA 结合 蛋白 的 结合 位 点 。 
由 DeepBind 确定 的 特异 性 很 容易 被 可 视 化 为 位 置 权重 
和 矩阵 的 加 权 组 合 或 “突变 图 "， 表 明 变 异 如 何 影 响 特定 
序列 内 的 结合 外 ,在 DeepSEA, DeFind" 4] DFIM" HP 
评估 了 功能 性 非 编 码 变异 的 影响 。DRNApred 用 于 区 
分 DNA 和 RNA 结合 残 基 。 由 于 数据 集 易 于 获得 ， 上 
述 这 些 方法 通常 是 在 组 织 或 细胞 系 上 进行 训练 和 测试 
的 。 在 玉米 等 具有 大 量 重复 元 件 和 宽 基 因 间 区 域 的 物 
种 中 ， 确 定 关键 的 基因 组 调控 区 域 具有 挑战 性 。 为 了 
应 对 这 些 挑战 ， 基 于 自然 语言 处 理 的 kmer 语法 等 方 
法 已 被 用 于 以 高 效 且 精确 地 注释 玉米 品系 中 的 调控 区 
域 吗 。 使 用 大 规模 的 ChIP-seq 来 重建 玉米 叶片 中 的 网 
络 ， 并 训练 机 器 学 习 模型 来 预测 TF 的 结合 和 共 定 位 。 
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证 明 是 高 效 的 ， 既 可 以 单独 或 以 组 合 方式 从 各 种 类 型 
的 测序 数据 中 进行 训练 ， 还 可 以 进一步 整合 其 他 信息 ， 
例如 DNase 了 I 超 敏 数据 ， 以 更 好 地 预测 体内 转录 结合 位 
点 (TFBS) 中 。 

总 结 而 言 ， 自 最 初 应 用 以 来 ，CNN 已 被 大 量 应 用 
于 基于 DNA 序列 预测 各 种 分 子 表 型 ， 并 已 成 为 新 的 最 
先进 模型 。 应 用 包括 分 类 转录 因子 结合 位 点 中 和 预测 
分 子 表 型 ， 如 染色 质 功能 中，DNA Be fk Rt, DNA 
甲 基 化 7， 基因 表达 四， 和 RBP 结合 中 。 除 了 从 序列 
中 预测 分 子 表 型 之 外 ，CNN 还 成 功 地 应 用 于 传统 上 由 
手工 生物 信息 学 方法 解决 的 更 多 技术 任务 。 例 如 ， 它 
们 已 被 用 于 预测 引导 RNA 的 特异 性 中， 增强 的 Hi-C 
Tis RP, JA DNA 序列 预测 起 源 的 实验 室 和 预测 
遗传 变异 体外 。CNNs 也 被 用 来 模拟 基因 组 中 的 长 期 依 
赖 关 系 。 尽 管 相互 作 用 的 调控 元 件 可 能 位 于 未 折 有 三线 
TE DNA 序列 上 的 远 处 ， 但 这 些 元 件 通常 在 实际 的 3D 
染色 质 构 象 中 靠近 。 因 此， 从 线性 DNA 序列 建 模 分 子 
表 型 ， 尽 管 是 染色 质 的 粗略 近似 ， 但 可 以 通过 人 允许 长 
程 依赖 性 并 允许 模型 隐 式 学 习 3D 组 织 的 方面 (例如 
“启动 子 - 增强 子 ” 循 环 ) 来 改进 。 在 Basenjing 中 ， 这 
是 通过 使 用 扩张 卷 积 实现 的 ， 它 启用 了 感受 野 达 到 
32KB。 扩 张 卷 积 还 允许 使 用 10KB 的 感受 野 从 序列 中 
预测 剪接 位 点 。 

在 基因 组 学 ，RNNs 已 被 用 于 聚集 细胞 神经 网 络 的 
输出 用 于 预测 单 细胞 DNA 甲 基 化 状态 四 ，RBP 结合 四， 
转录 因子 结合 和 DNA 无 障碍 外 。RNN 在 miRNA 生物 
学 中 也 有 应 用 : deepTarget M mRNA-miRNA 序列 
对 预测 miRNA 结合 靶 标 方面 比 现 有 模型 表现 更 好 ， 并 
AL deepMiRGene™\ mRNA 序列 及 其 预测 的 二 级 结构 
中 比 现 有 方法 更 好 地 预测 前 体 miRNA 的 发 生 使 用 手工 
制作 的 功能 。 来 自 原始 DNA 测序 数据 的 碱 基调 用 是 另 
一 个 应 用 RNN 的 预测 任务 。 尽 管 RNN 有 诸多 应 用 ， 
但 对 于 基因 组 学 中 常见 的 序列 建 模 任 务 ， 缺 乏 对 循环 


所 得 到 的 网 络 覆 盖 了 77% 的 表达 基因 ， 并 显示 出 像 现 
实 世 界 网 络 一 样 的 无 标 度 拓扑 结构 和 功能 模块 化 。 机 
器 学 习 方 法 在 模拟 转录 因子 结合 位 点 方面 也 发 挥 了 重 
要 作用 。 机 顺 学 习 模 型 在 植物 生物 学 的 几 个 方面 已 被 


和 卷 积 架构 的 系统 比较 。 
4.2 深度 学 习 在 基因 组 学 应 用 中 的 可 解释 性 


在 比较 CNN 和 k-mer 方法 时 ，CNN 在 特征 提取 
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方面 更 有 效 。 然 而 ，CNN 通常 被 认为 是 黑匣子 ， 因 为 
对 其 输出 的 解释 具有 挑战 性 ， 并 且 可 能 涉及 高 计算 成 
本 。 此 外 ， 他 们 的 表现 有 多 少 来 自 于 学 习 基 本 的 生物 
规则 ， 例 如 关键 基 序 、 基 序 关 系 和 一 般 序列 视角 ， 这 
是 相当 不 确定 的 。 出 于 解释 DNA 的 目的 ，k-mer 方法 
iF CNN 和 RNN。 使 用 k-mers (或 k-tuples k-gram) 
频率 对 序列 进行 分 类 是 快速 、 准 确 、 无 参考 和 无 对 齐 
HJ, k-mer 是 一 种 基于 基因 的 方法 ， 用 于 识别 序列 特 
征 。 通 常 ，k-mer 频率 向 量 与 距离 函数 配对 在 一 起 ， 以 
测量 任何 一 对 序列 之 间 的 数量 相似 性 。 基 于 单词 统计 
来 恢复 语义 和 句法 线索 很 容易 解释 ， 但 是 ， 确 定 为 什 
么 以 某 种 方式 对 序列 进行 分 类 并 不 像 更 传统 的 基于 对 
齐 的 方法 那样 直接 。 然 而 ， 使 用 k-mer 表示 似乎 是 准 
确 和 快速 分 类 的 良好 平衡 。 值 得 注意 的 是 ， 也 有 结合 
k-mer 方法 和 深度 学 习 模 型 的 例子 中， 尽管 尚未 系统 评 
估 这 种 方法 对 精度 或 可 解释 性 的 影响 。 

在 线性 模型 等 简单 模型 中 ， 模 型 的 参数 通常 衡量 
输入 特征 对 预测 的 贡献 。 因 此 ， 在 输入 特征 相对 独立 
的 情况 下 ， 可 以 直接 用 于 模型 解释 。 相 比 之 下 ， 深 度 
经 网 络 的 参数 由 于 其 元 余 和 与 输出 的 非 线性 关系 而 
难以 解释 。 在 复杂 模型 中 ， 必 须 通过 探测 每 个 预测 示 
例 的 “输入 - 输出 ”关系 来 间接 得 到 特征 重要 性 分 数 ， 
也 称 为 属性 分 数 、 相 关 性 分 数 或 贡献 分 数 。 特 征 重 要 
性 分 数 显示 了 给 定 输 入 中 对 模型 预测 最 有 影响 的 部 分 ， 
从 而 有 助 于 解释 做 出 这 种 预测 的 原因 。 在 DNA 序列 为 
基础 的 模型 中 ， 重 要 性 分 数 可 以 表征 序列 基 序 ， 并 因 


EX» 
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基于 反问 传播 的 重要 性 分 数 是 Saliency Maps?" fl Input- 
Masked Gradients 中 。 由 于 深度 学 习 框 架 支 持 自 动 微分 ， 
这 些 分 数 可 以 在 几 行 代码 中 有 效 地 实现 。 

Saliency Maps、Input-Masked Gradients 或 基于 扰动 
的 方法 的 一 个 问题 是 所 谓 的 神经 元 饱和 问题 。 为 了 解 
决 此 问题 ， 提 出 了 基于 参考 的 方法 ， 如 DeepLIFT 和 
Integrated GradientsP?, ixJ£75 15358 A FERE EH; "A 
考 ” 值 进行 比较 ， 从 而 避免 饱和 问题 。 在 DNA 序列 的 
情况 下 ， 合 理 的 参考 值 是 原始 序列 的 二 核 背 酸 改 组 版 
本 。 我 们 注意 到 目前 缺乏 基因 组 学 中 特征 重要 性 分 数 
和 不 同 参考 值 的 严格 基准 。 因 此 ， 建 议 尝试 多 种 方法 ， 
并 将 它们 与 一 些 易 于 理解 的 示例 或 模拟 数据 进行 比较 。 

最 近 提 出 了 一 种 “可 见 神经 网 络 ” 的 方法 ，DCell 
模型 四， 以 提高 内 部 神经 网 络 激活 的 可 解释 性 。DCell 
对 应 于 细胞 内 已 知 分 子 子 系统 的 层次 结构 。 神 经 网 络 
中 的 节点 对 应 分 子 子 系统 ， 例 如 信号 通路 或 大 和 蛋白质 
复合 物 ， 只 有 上 游 系 统 (例如 小 蛋白 质 复合 物 ) 是 下 
游 系统 的 一 部 分 时 ， 才 允许 两 个 节点 (系统 ) 之 间 的 
连接 (如 大 的 蛋白 质 复 合 物 )。 由 于 神经 网 络 中 的 神经 
元 对 应 已 知 概念 ， 因 此 可 以 解释 它们 的 激活 和 参数 。 
这 种 方法 仅 适 用 于 底层 实体 及 其 层次 结构 足够 广 为 人 
知 的 任务 ， 可 能 无 法 直接 适用 于 实体 或 其 层次 结构 通 
常 未 知 的 任务 ， 例 如 转录 因子 结合 。 


4.3 图 神经 网 络 在 基因 组 学 中 的 应 用 


图 结构 数据 包括“ 蛋白质 - 蛋白 质 ” 相 互 作用 


此 广泛 用 于 在 基因 组 学 外 。 特 征 重要 性 分 数 还 可 用 于 
探测 更 复杂 的 上 位 相互 作用 中 。 

根据 是 使 用 输入 扰动 还 是 使 用 反 向 传播 计算 ， 特 
征 重要 性 分 数 可 以 分 为 两 大 类 。 对 于 DNA 序列 为 基础 
的 模型 中 ， 诱 导 的 扰动 可 以 是 单 核 苷 酸 取代 或 调节 基 
序 的 搬入。 基于 扰动 的 重要 性 得 分 的 主要 缺点 是 计算 
成 本 高 ， 当 需要 计算 整个 数据 集 的 重要 性 得 分 时 ， 这 
一 点 就 变 得 很 明显 。 基 于 反 向 传播 的 特征 重要 性 分 数 
是 更 高 效 计算 方式 。 在 这 些 方 法 中 ， 所 有 输入 特征 的 
重要 性 分 数 是 使 用 通过 网 络 的 单个 反 向 传播 计算 的 ， 
因此 它们 只 需要 两 倍 于 单个 预测 的 计算 量 。 最 简单 的 
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网 络 和 基因 调控 网 络 ， 在 基因 组 学 中 无 处 不 在 。 图 表 
卷 积 神经 (GCN) 网 络 的 使 用 的 节点 的 各 个 特征 中 的 
曲线 图 和 所 述 节点 连接 来 解决 图 机 器 学 习 任 务 。GCN 
依次 应 用 多 个 图 变换 ( 层 )， 其 中 每 个 图 变换 以 非 线性 
方式 聚合 来 自 相 邻 节 点 或 边 的 特征 ， 并 用 一 组 新 特征 
表示 节点 或 边 。GCN 可 以 训练 的 任务 包括 节点 分 类 ， 
无 监督 节点 舱 入 ( 旨 在 找到 节点 的 信息 性 低 维 表示 )， 
边缘 分 类 和 图 分 类 。 

GCN 已 应 用 于 许多 生物 和 化 学 问题 。 例 如 ， 一 种 
方法 使 用 无 监督 的 方法 以 无 监督 的 方式 从 “蛋白质 - 
蛋白 质 ” 相 互 作用 网 络 中 推导 出 蛋白 质 的 新 特征 ， 然 
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Jc fiit FH aoc E B IE HE HOM A T] 2H 2H PB) E A RE 9T 
GCN 也 被 用 于 模拟 多 药 副作用 中。 在 化 学 中 ， 曲 线 图 
的 卷 积 已 经 成 功 地 用 于 预测 各 种 分 子 的 性 质 ， 包 括 溶 
解 性 ， 药 物 功效 和 光电 效率 四。GCN 的 基因 组 应 用 包 
括 根据 其 他 基因 的 表达 四， 研究 了 基因 交互 图 (相同 
的 路 径 、“ 和 蛋白 质 - 蛋白 质 ”、 共 同 表达 或 研究 论文 文 
本 关联 ) 如 何 应 用 于 深度 模型 ,类似 于 图 像 上 的 卷 积 。 
探索 了 图 卷 积 神经 网 络 在 基因 组 学 的 使 用 ， 通 过 结合 
基因 般 入 以 利用 图 信息 。 这 种 方法 在 低 数据 约束 下 为 
特定 的 任务 提供 了 优势 ， 但 非常 依赖 于 所 用 图 形 的 质 
量 。 基 因 相 互 作用 图 的 目的 是 捕捉 基因 之 间 的 各 种 关 
系 ， 并 可 用 于 创建 更 多 的 生物 直观 模型 来 进行 机 带 学 
习 。 当 前 研究 也 试图 通过 利用 这 些 图 进行 “ 单 基 因 推 
W (SGI) 来 评估 这 些 图 所 提供 的 偏差 。SGI 任务 评 
估 了 与 使 用 数据 集中 所 有 基因 的 基线 相 比 ， 一 个 基因 
在 特定 图 形 中 的 邻居 能 多 好 地 “解释 ”该 基因 本 身 。 
GCN 为 利用 图 的 结构 模式 解决 有 监督 和 无 监督 的 机 器 
学 习 问 题 提 供 了 有 前 景 的 工具 ， 我 们 希望 在 未 来 看 至 
更 多 的 基因 组 学 应 用 。 


= 
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深度 学 习 在 植物 基因 组 学 与 作物 育种 中 的 应 用 现状 与 展望 


这 使 得 探究 基因 表达 的 进化 限制 和 突变 疾病 效应 的 初 
始 预测 成 为 可 能 ， 从 而 使 ExPecto 成 为 预测 表达 和 疾 
病 风险 的 端 到 端 计算 框架 。ExPecto 是 一 个 基于 深度 学 
习 的 框架 ， 可 以 仅 根 据 DNA 序列 预测 突变 的 组 织 特异 
性 转录 效应 。ExPecto 可 以 优先 考虑 GWAS 位 点 的 因 
果 变 体 ， 并 用 于 预测 变 体 的 疾病 风险 。 由 于 在 密切 相 
关 的 物种 中 控制 分 子 过 程 的 生物 学 是 保守 的 ， 
物种 中 训练 的 模型 可 以 直接 应 用 于 密切 相关 的 物种 中。 
或 者 这 些 模 型 可 以 用 作 迁 移 学 习 中 的 教师 模型 密切 相 
关 物 种 的 任务 ， 促 进 知 识 从 研究 充分 的 物种 (如 拟 南 
JF) 迁移 到 相关 但 特征 不 佳 的 物种 〈 如 十 字 花 科 中 的 
其 他 物种 )。 

提出 了 基于 生物 证 据 研究 的 自动 建 模 (AMBER) ™, 
这 是 一 个 完全 自动 化 的 框架 ， 可 以 有 效 地 设计 和 应 用 
基因 组 序列 的 CNN。AMBER 通过 最 先进 的 神经 结构 
搜索 (NAS) 为 用 户 指定 的 生物 问题 设计 最 佳 模型 。 
将 AMBER 应 用 于 基因 组 调控 特征 的 建 模 任务 ， 并 证 
明 AMBER 设计 的 模型 的 预测 结果 明显 比 同等 基线 的 
dE NAS 模型 更 准确 ， 并 匹配 甚至 超过 了 已 发 表 的 专家 
设计 的 模型 。 对 AMBER 架构 搜索 的 解释 揭示 了 其 利 
完整 的 计算 操作 空间 来 准确 模拟 基因 组 序列 的 设计 


在 一 个 


给 定 生物 序列 作为 预测 因子 ， 深 度 学 习 模 型 可 用 
于 预测 分 子 表 型 (例如 转录 因子 结合 、 表 观 遗 传 标 记 、 
染色 质 状 态 和 基因 表达 水 平 )。 深 度 学 习 模型 最 强大 的 
部 分 是 它们 能 够 对 新 的 、 以 前 未 见 过 的 序列 数据 CHI 
不 在 训练 集中 的 数据 ) 进行 从 头 预测 。 

尽管 自然 种 群 中 存在 大 量 遗 传 变异 ,但 可 以 对 其 
中 的 一 小 部 分 进行 深度 学 习 模型 训练 ， 以 预测 所 有 其 
他 变异 〈 即 整个 变异 空间 ) 的 影响 。 例 如 ， 在 某 些 基 
因 上 训练 的 模型 可 用 于 对 其 他 基因 进行 预测 。 这 些 不 
仅 包 括 常 见 的 等 位 基因 ， 还 包括 低频 和 稀有 变异 ， 无 
论 其 影响 程度 如 何 。 人 类 遗传 学 、 精 准 医学 和 进化 生 
物 学 的 关键 挑战 包括 破译 基因 表达 的 调控 代码 和 理解 
基因 组 变异 的 转录 效应 。 然 而 ， 由 于 非 编码 突变 空 
间 的 巨大 规模 ， 这 是 极 困难 的 。 基 于 深度 学 习 的 框架 
ExPecto 可 以 从 DNA 序列 中 准确 预测 突变 的 组 织 特异 
性 转录 效应 ， 包 括 那些 罕见 的 或 未 被 观察 到 的 突变 。 


原则 。 此 外 ， 说 明了 利用 AMBER 准确 发 现 等 位 基因 
寺 异 性 结合 和 疾病 遗传 性 富 集 的 功能 性 基因 组 变异 四。 
AMBER 为 设计 基因 组 学 中 准确 的 深度 学 习 模型 提供 了 
一 种 有 效 的 自动 化 方法 。 总 之 ， 深 度 学 习 模 型 可 以 极 
大 地 推动 我 们 对 终端 表 型 的 基因 组 变异 的 理解 。 


4.5 深度 学 习 与 蛋白 质 特性 研究 


4.5.1 CNN 与 RNN 在 蛋白 质 预测 中 的 应 用 

任何 蛋白 质 的 功能 直接 取决 于 其 三 级 结构 。 和 蛋白 
质 的 三 级 结构 可 以 通过 综合 分 析 各 种 蛋白 质 特性 来 揭 
示 ， 例 如 二 级 结构 、 跨 膜 拓扑 、 信 号 肽 、 溶 剂 可 及 性 、 
骨架 二 面 角 、 无 序 到 有 序 转变 、 接 触 图 、 模 型 质量 、 
残 基 间 接触 、 蛋 白质 相互 作用 位 点 、 和 蛋白 质 穴 乱 和 酶 
动力 学 。 为 了 从 头 肽 序列 中 提取 重要 的 氨基 酸 特征 ， 
使 用 CNN 方法 开发 了 DeepNovoEBJ。 基 于 串联 质谱 数 
据 的 新 肽 测序 是 猎枪 蛋白 质 组 学 的 关键 技术 ， 用 于 识 
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别 没 有 任何 数据 库 的 肽 和 组 装 未 知 的 蛋白 质 。 然 而 ， 
由 于 串联 质谱 的 离子 覆盖 率 较 低 ， 如 果 某 些 连 续 氮 基 
酸 的 支持 性 片段 离子 全 部 丢失 ， 则 无 法 确定 其 顺序 ， 
这 导致 了 从 头 测序 的 低 精度 。pNovo 3 外 使 用 一 个 学 习 
排名 框架 来 区 分 每 个 光谱 的 相似 肽 候选 者 。 衡 量 每 个 
实验 光谱 和 其 对 应 的 理论 光谱 之 间 的 相似 性 的 3 个 指 
标 被 用 作 重 要 的 特征 ， 其 中 理论 光谱 可 以 由 pDeep 算 
法 使 用 深度 学 习 精 确 预 测 。 在 基于 质谱 的 蛋白 质 组 学 
中 ， 多 肽 和 和 蛋 白质 的 鉴定 和 定量 在 很 大 程度 上 依赖 于 
序列 数据 库 搜 索 或 光谱 库 匹 配 。 由 于 缺乏 准确 的 片段 
离子 强度 预测 模型 ， 降 低 了 这 些 方 法 的 实用 性 外。 将 
ProteomeTools 合成 肽 库 扩展 到 55 71 2& ABR S: A EK A 
2100 万 条 高 质量 串联 质谱 。 并 训练 了 一 个 深度 神经 网 
络 Prosit， 在 色谱 保留 时 间 和 片段 离子 强度 的 预测 方面 
取得 显著 提升 。 

蛋白 质 与 蛋白 质 的 相互 作用 (PPL) 不 断 参与 动态 
的 病理 和 生物 学 研究 过 程 中 。 因 此 ， 彻 底 理 解 PPI 是 
非常 重要 的 ， 有 利于 阐明 疾病 的 发 生 ， 实 现 最 佳 的 
“药物 - 目标 ”治疗 效果 ， 并 描述 蛋白 质 的 复合 结构 。 

例如 ， 文 献 使 用 图 表示 学 习 和 结构 特征 的 深度 学 
习 模 型 来 预测 IncRNA 和 蛋白质 的 相互 作用 ， 为 了 通 
用 性 和 探索 不 同 的 模型 设计 原则 ， 利 用 生物 信息 技术 
基于 不 同 的 特征 提取 和 选择 方法 来 开发 IncRNA- EA 
相互 作用 预测 算法 ,并 基于 互 作 关系 进行 功能 推测 。 并 
在 在 拟 南 芥 和 玉米 数据 集 上 验证 所 提出 方法 的 性 能 。 

然而 ， 与 从 不 同 物种 和 生物 体 获 得 的 蛋白 质 序 列 
相 比 ， 所 揭示 的 “和 蛋白质 - 蛋白 质 ” 相 互 作用 的 数量 
相对 有 限 。 为 了 解决 这 一 难题 ， 许 多 研究 工作 都 是 为 
了 促进 发 现 新 的 PPI 而 进行 的 。 在 这 些 方法 中 ， 仅 仅 
依靠 蛋白 质 序 列 数据 的 PPI 预测 技术 比 其 他 需要 广泛 
生物 领域 知识 的 方法 更 为 广泛 。 为 了 预测 二 级 结构 ， 
在 深度 学 习 模型 中 使 用 了 相对 浴 剂 可 及 性 和 残 基 间 接 
fit] rawMS 外 。 然 而 ， 深 度 学 习 算 法 在 不 同 领域 取得 
了 成 功 ,但 由 于 覆盖 率 低 和 数据 哮 杂 ， 它 们 对 PPI 预 
测 的 有 效 性 非常 低 。DPPI 成 为 一 种 能 够 从 序列 信息 中 
预测 PPI 和 同 二 聚 体 相 互 作用 的 新 模型 中 。 

提出 了 一 种 多 模 态 的 深度 表征 学 习 结构 ， 将 蛋白 质 
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的 理化 特征 与 来 自 PPI 网 络 的 图 形 拓扑 特征 相 结合 中 。 
不 仅 考虑 到 了 和 蛋白质 序 列 信息 ， 还 考虑 到 了 PPI 网 络 
中 每 个 蛋白 质 节 点 的 拓扑 学 表征 。 通 过 构建 了 一 个 堆 
至 的 自动 编码 器 架构 ， 以 及 一 个 基于 生成 的 元 路 径 的 
连续 词 包 (CBOW) 模型 来 研究 PPI 预测 。 随 后 ， 利 
用 监督 下 的 深度 神经 网 络 来 识别 PPI 并 对 蛋白 质 家 族 
进行 分 类 。8 个 物种 的 PPI 预测 准确 率 从 96.76% 到 
99.77% 不 等 ， 这 是 第 一 个 用 于 研究 PPL 网 络 的 多 模 态 
深度 表示 学 习 框 架 。 

现 有 的 “和 蛋白质 - 和 蛋白质” 相互 作用 预测 的 计算 
方法 大 多 集中 在 特征 提取 和 特征 组 合 上 多 。 设 计 了 一 
种 名 为 Res2vec 的 新 的 残 基 表征 方法 来 表示 有 蛋白质 序 
列 。 通 过 Res2vec 得 到 的 残 基 表征 更 精确 地 描述 了 原 
始 序列 的 “ 残 基 - 残 基 ” 相 互 作 用 ， 并 为 下 游 的 深度 
学 习 模型 提供 了 更 有 效 的 输入 。 结 合 有 效 的 特征 能 入 
和 强大 的 深度 学 习 技术 四， 提供 了 一 个 通用 的 计算 管 
道 来 推断 “和 蛋白质 - 蛋白 质 ” 相 互 作 用 ， 即 使 是 在 蛋 
白质 结构 知识 完全 未 知 的 情况 下 。 

基于 不 同 的 蛋白 质 序列 编码 器 ， 人 们 提出 了 大 量 
的 计算 方法 。 一 个 蛋白 质 序列 对 的 置信 和 度 分 数 可 以 被 
看 作 是 对 PPL 的 一 种 测量 。 一 个 蛋白 质 对 的 置信 度 分 
数 越 高 ， 该 蛋白 质 对 就 越 可 能 发 生 相 互 作用 。 因 此 ， 
引入 了 一 个 深度 学 习 框 架 的 ， 即 序数 回归 和 递归 卷 积 
神经 网 络 (OR-RCNN) 方法 ， 从 置信 度 的 角度 来 预测 
PPI。 它 主要 包括 两 个 部 分 : 蛋白质 序列 对 的 编码 部 分 
和 通过 置信 度 分 数 预测 PPI 的 部 分 。 第 一 部 分 ， 应 用 
两 个 具有 共享 参数 的 递归 卷 积 神经 网 络 (RCNN) 构建 
两 个 蛋白 质 序列 散 入 向 量 ， 可 以 自动 从 蛋白 质 对 中 提 
取 稳 健 的 局 部 特征 和 序列 信息 。 在 此 基础 上 ， 通 过 元 
素 相 乘 的 方式 将 两 个 谋 入 向量 编码 为 一 个 新 的 谍 和 人 向 
量 。 在 第 二 部 分 中 ， 通 过 考虑 置信 度 分 数 背后 的 序数 
信息 ， 使 用 序数 回归 来 构建 多 个 子 分 类 器 。 多 个 子 分 
类 器 的 结果 被 汇总 ， 得 到 最 终 的 置信 度 分 数 。 

4.52. ALPHAFOLD 在 蛋白 质 预测 中 的 应 用 

蛋白 质 对 生命 至 关 重 要 ， 了 解 其 结构 可 以 促进 对 
其 功能 的 机 械 性 理解 。 通 过 巨大 的 实验 努力 ， 大 约 10 
万 个 独特 的 蛋白 质 的 结构 已 被 确定 ， 但 这 只 是 数 十 亿 


已 知 蛋 白质 序列 中 的 一 小 部 分 。 由 于 确定 一 个 蛋白 质 
结构 需要 数 月 至 数 年 的 艰苦 努力 ， 结 构 覆 盖 率 成 为 当 
HUFL HRM, ATT TAP SRE, AY aE 
断 出 哪些 氨基 酸 残 基 是 接触 的 ， 这 有 助 于 预测 蛋白 质 
结构 。AlphaFold 通过 训练 一 个 神经 网 络 来 对 残 基 对 之 
间 的 距离 进行 准确 的 预测 ， 这 比 接触 预测 能 传达 更 多 
的 结构 信息 。 利 用 这 些 信息 ， 构 建 了 一 个 能 够 准确 描 
述 蛋 白质 形状 的 平均 力 势 。 所 得 到 的 势 可 以 通过 一 个 
简单 的 梯度 下 降 算法 进行 优化 ， 以 生成 结构 ， 而 不 需 
要 复杂 的 采样 程序 。 即 使 对 于 同 源 序列 较 少 的 序列 
AlphaFold 也 能 达到 很 高 的 准确 性 。AlphaFold 代表 了 
蛋白 质 结构 预测 的 一 个 相当 大 的 进步 四。 

50 多 年 来 ， 仅 根据 其 氨基 酸 序列 预测 一 个 蛋白 质 
采用 的 三 维 结构 ， 即 “和 蛋白质 折 又 问题 ”的 结构 预测 
部 分 ， 一 直 是 一 个 重要 的 开放 式 研究 问题 。 现 有 的 方 
法 远 远 达 不 到 原子 的 准确 性 要 求 ， 特 别 是 在 没有 同 源 
结构 的 时 候 。AlphaFold2 提供 了 第 一 个 可 以 定期 预测 
蛋白 质 结 构 的 计算 方法 ， 即 使 在 没有 类 似 结构 的 情况 
下 也 能 达到 原子 精度 。AlphaFold 的 基础 是 一 种 新 的 机 
器 学 习 方法 ， 将 有 关 和 蛋白 质 结 构 的 物理 和 生物 知识 纳 
入 深度 学 习 算 法 的 设计 中 ， 利 用 多 序列 排列 的 方式 中 。 

AlphaFold2 通过 结合 新 的 神经 网 络 架构 Evoformer 
和 基于 蛋白 质 结 构 的 进化 、 物 理 和 几何 约束 的 训练 程 
序 ， 大 大 提高 了 结构 预测 的 准确 性 。 提 出 了 一 个 联合 
藤 入 多 序列 排列 (MSA) 和 成 对 特征 的 新 架构 ， 一 个 
新 的 输出 表示 和 相关 损失 ， 使 准确 的 端 到 端 结构 预测 
成 为 可 能 ， 一 个 新 的 等 价 注意 力 架构 ， 使 用 中 间 损 失 
来 实现 预测 的 迭代 完善 ， 屏 项 MSA 损失 来 与 结构 联合 
训练 ， 使 用 自我 蒸馏 和 自我 估计 准确 性 从 无 标签 的 蛋 
白质 序列 学 习 。Evoforme 是 将 蛋白 质 结 构 的 预测 视 为 
三 维 空间 中 的 图 推理 问题 ， 其 中 图 的 边缘 是 由 相近 的 
残 基 定义 。 

BAEK 等 探索 了 基于 DeepMind 框架 的 网 络 架 构 。 


深度 学 习 在 植物 基因 组 学 与 作物 育种 中 的 应 用 现状 与 展望 
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质 ” 复 合 物 模型 中 。 通 过 应 用 AlphaFold2™, MAIAK 
了 和 蛋白 质 组 的 结构 覆盖 范围 ， 其 规模 几乎 涵盖 了 整个 
人 类 蛋白质 组 (98.5% 的 人 类 有 蛋白质) 。 由 此 产生 的 数 
据 集 涵盖 了 58% 的 残 基 ， 其 中 一 个 子 集 ( 占 所 有 残 基 
的 36%) 具有 非常 高 的 置信 度 。 同 时 在 AlphaFold 模 
型 基础 上 开发 了 用 于 解释 数据 集 的 指标 。AlphaFold2 
从 多 序列 排列 (MSA) 中 编码 的 共同 进化 关系 中 预测 
蛋白 质 结 构 。 尽 管 最 近 准 确 率 大 幅 提高 BA 3 个 
Jk. © 预测 无 法 生成 MSA 的 孤儿 和 快速 进化 的 蛋白 
质 ; 名 快速 探索 设计 的 结构 ; © TERO BR 
折 释 的 规则 中 。 提 出 了 一 个 端 到 端的 可 区 分 的 递归 几何 
网 络 (RGN)， 能 够 在 不 使 用 MSA 的 情况 下 从 单个 蛋 
白质 序列 预测 蛋白 质 结构 。 这 个 深度 学 习 系 统 有 两 个 
新 的 元 素 : 一 个 是 蛋白 质 语 言 模型 (AminoBERT), 
它 使 用 转化 器 从 数 以 百 万 计 的 未 对 齐 的 蛋白 质 中 学 习 
潜在 的 结构 信息 ; 另 一 个 是 几何 模块 ， 紧 凑 地 表示 Ca 
骨架 几何 。RGN?2 在 孤儿 蛋白 上 的 表现 优 于 AlphaFold2 
和 RoseTTAFold (以 及 trRosetta) ， 并 在 设计 序列 上 有 具 
有 竞争 力 ， 同 时 在 计算 时 间 上 实现 了 106 倍 的 减少 。 


4.6 深度 学 习 与 作物 育种 研究 


作物 育种 的 一 个 重要 组 成 部 分 是 在 环境 适应 和 现 
代 管 理 实践 的 背景 下 清除 有 害 等 位 基因 。 过 去 30 4E, 
被 概括 为 育种 3.0 时 代 ， 见 证 了 标记 辅助 选择 、 关 联 分 
析 和 基因 组 预测 的 巨大 胜利 。 值 得 注意 的 是 ， 育 种 3.0 
时 代 标 记 辅 助 育种 中 使 用 的 遗传 变异 不 一 定 是 农艺 性 
状 的 因果 变异 。 当 育种 者 有 能 力 大 规模 预测 因果 有 益 
和 有 害 变异 时 ， 可 以 通过 编辑 将 有 益 等 位 基因 直接 引 
入 优良 种 质 ， 而 不 是 通过 在 连锁 位 点 携带 有 害 等 位 基 
因 的 另 一 个 供 体 亲本 回 交 。 同 样 ， 可 以 通过 编辑 有 效 
地 从 基因 组 中 清除 有 害 等 位 基因 。 模 拟 研究 表明 ， 通 
过 使 用 基因 组 编辑 将 有 益 的 变异 引入 基因 组 ， 可 以 显 
着 加 速 牲畜 的 育种 。 然 而 ， 由 于 基因 型 与 环境 之 间 的 


他 们 使 用 了 一 个 三 罗网 络 来 同时 处 理 序 列 、 距 离 和 坐标 
信息 ， 并 取得 了 接近 DeepMind 的 精度 。 通 过 RoseTTA 
折 著 方法 可 以 解决 具有 挑战 性 的 久 射线 晶体 学 和 低温 


相互 作用 在 作物 物种 中 比 在 牲畜 中 更 为 突出 ， 等 位 基 
因 效 应 (无 论 是 有 害 的 、 有 益 的 还 是 适应 性 的 ) 在 作 
物 物种 中 更 具 挑 战 性 。 理 想 情 况 下 ， 特 定 于 环境 的 模 


子 显微镜 建 模 问题 ， 并 产生 准确 的 “和 蛋白质 - 蛋白 


型 或 将 环境 因素 作为 额外 输入 的 模型 将 缓解 这 个 问题 。 
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因此 ， 可 以 合理 地 将 深度 学 习 模 型 预测 的 功能 变异 概 
念 化 为 下 一 个 育种 时 代 的 关键 ， 即 育种 4.0， 其 中 作物 
物种 的 遗传 改良 在 很 大 程度 上 取决 于 基因 组 编辑 只。 

在 进行 这 种 通过 编辑 繁殖 的 方法 时 ， 我 们 并 不 仅 
限于 自然 界 中 已 知 的 有 益 变 体 。 相 反 ， 我 们 享有 完全 
的 自由 ， 可 以 根据 我 们 的 深度 学 习 模型 对 感 兴趣 的 生 
物 过 程 的 “理解 ”来 创建 新 颖 的 有 益 等 位 基因 。 例 如 ， 
编辑 番茄 CLAVATA3 基因 (SICLV3) 启动 子 加 以 增 
加 果实 大 小 并 优化 花序 分 枝 加 。 由 于 SICLV3 启动 子 中 
缺乏 功能 注释 ， 饱 和 启动 子 诱 变 采用 CRISPR/Cas9 系 
统 ， 然 后 选择 具有 理想 果实 和 花序 特征 的 突变 体 。 未 
来 ， 通 过 从 启动 子 序 列 预测 基因 表达 水 平 的 深度 学 习 
模型 ， 可 以 通过 单 核 背 酸 分 辨 率 的 显 着 性 评分 识别 
SICLV3 启动 子 上 的 关键 顺 式 元 件 ， 预 测 它们 对 SICLV3 
基因 的 功能 丧失 影响 表达 ， 然 后 实施 模型 引导 的 启动 
子 编辑 。 

创建 具有 特定 功能 的 新 基因 组 元 素 的 另 一 种 方法 
是 在 合成 生物 学 中 应 用 生成 模型 。 例 如 ， 在 学 习 现 有 
启动 子 的 突变 空间 后 ， 可 以 训练 模型 以 创建 具有 时 空 
寺 异 性 的 新 启动 子 。 然 而 ， 尽 管 变 分 自 编码 器 和 生成 
对 抗 网 络 等 生成 模型 最 近 引 起 了 广泛 关注 ， 但 它们 在 
合成 生物 学 中 的 潜在 应 用 仍然 相当 有 限 。 一 个 例子 是 
应 用 GAN 来 生成 编码 抗菌 肽 的 合成 DNA. 序列 名。 


4.7 无 监督 学 习 在 基因 组 学 及 蛋白 质 特性 中 
的 应 用 
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Deconfounding AutoEncoder (AD-AE) 方法 去 混淆 基 
因 表 达 潜 在 空间 。 通 过 联合 训练 网 络 生 成 嵌入 ， 这 些 
舱 入 可 以 编码 尽 可 能 多 的 信息 ， 而 不 会 编码 任何 混杂 
信号 。 通 过 将 AD-AE 应 用 于 两 个 不 同 的 基因 表达 数据 
E, pO RIVA. 生成 不 编码 混杂 信息 的 般 入 ; 
@@ 保 存 原 始 空 间 中 存在 的 生物 信号 ; @ 在 不 同 的 混杂 域 。 
GANs 被 认为 是 一 种 完全 不 同 的 生成 模型 的 方法 ， 
它 涉及 两 个 神经 网 络 ， 一 个 鉴别 器 和 一 个 发 生 器 网 络 。 
它们 被 联合 训练 ， 其 中 生成 器 旨 在 生成 真实 的 数据 点 ， 
而 判别 器 则 对 给 定 样本 是 真实 的 还 是 由 生成 器 生成 的 进 
行 分 类 。GAN 已 经 被 用 来 生成 蛋白 质 编码 的 DNA JF 
列 四 ， 并 为 蛋白 质 结合 微 阵列 设 计 DNA RE GANS 
能 够 生成 优 于 训练 数据 集中 的 序列 ， 以 更 高 的 和 蛋白质 
结合 亲和力 来 衡量 外。 在 单 细 胞 基因 组 学 领域 ，GANs 
已 被 用 于 模拟 scRNA-seq 数据 和 降 维 外。 此外， 作者 通 
过 扰动 解释 了 GANs 的 内 部 表示 。 在 MAGAN143 中 ， 
作者 使 用 一 个 由 两 个 GANs 组 成 的 架构 解决 了 来 自 不 
同 领域 的 数据 集 ， 即 CyTOF 数据 和 scRNA-seq 数据 的 
对 齐 这 一 挑战 性 问题 。 使 用 生成 模型 来 创建 新 的 DNA 
元 件 、 基 因 ， 甚 至 具有 所 需 功 能 的 调节 回路 ， 并 将 它 
们 应 用 于 作物 改良 将 成 为 未 来 育种 的 发 展 重点 之 一 。 


5 总 结 与 展望 


本 研究 对 近年 来 深度 学 习 在 植物 基因 组 和 作物 育 
种 研究 领域 的 最 新 进展 进行 了 总 结 梳理 。 总 体 来 看 ， 


变异 自动 编码 器 (VAEs) 和 GANs 是 在 深度 学 习 
领域 出 现 的 两 种 强大 的 生成 方法 。VAEs 是 具有 额外 分 
布 假设 的 自动 编码 器 ， 使 其 能 够 生成 新 的 随机 样本 。 
当前 自动 编码 器 已 被 用 于 填补 缺失 数据 ， 提 取 基 因 表 
达 特 征 ， 检 测 微 阵列 数据 和 大 量 RNA， 以 寻找 有 意义 
的 概率 潜在 表示 中。 自动 编码 器 通常 用 于 插 补 、 降 维 
和 表征 学 习 。 因 此 ， 自 编码 器 可 以 作为 将 映射 从 高 维 
数据 空间 转换 为 低 维 特征 空间 的 有 效 手段 ， 从 而 提高 
聚 类 结果 四。 为 了 描述 遗传 对 基因 表达 的 影响 ， 文 献 的 
建立 了 一 个 深度 自动 编码 器 模型 来 评估 良好 的 遗传 变 
异 对 基因 表达 变化 的 影响 。 文 献 [57] 提 出 了 Adversarial 


2022 年 第 34 卷 第 8 期 


深度 学 习 在 基因 组 学 研究 诸多 领域 方向 上 取得 了 比 传 
统 方法 更 好 的 效果 ， 深 度 学 习 在 基因 组 学 中 的 应 用 已 
经 产生 了 具有 科学 和 经 济 意义 的 早期 应 用 。 深 度 学 习 
的 优势 主要 体现 在 两 个 方面 : 外 端 到 端 学 习 ， 能 够 将 
多 个 预 处理 步 又 整合 到 一 个 模型 中 ; @ 多 模 态 数据 处 
理 能 力 ， 可 处 理 基 因 组 学 中 极其 异 质 的 数据 ， 包 括 序 
列 、 计 数 、 质 谱 强度 和 图 像 。 深 度 学 习 为 基因 组 学 与 
作物 育种 的 研究 拓展 了 全 新 的 研究 视角 ， 随 着 算法 精 
度 不 断 提高 ， 为 促进 表 型 与 基因 型 组 学 的 不 同 尺度 关 
联 研究 带 来 新 的 机 会 。 

深度 学 习 当前 已 经 在 基因 组 学 、 转 录 组 学 、 和 蛋白 
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质 组 学 和 合成 生物 学 等 领域 取得 诸多 进展 ， 可 以 为 作 
物 育种 和 植物 基因 组 学 领域 提供 强大 驱动 力 ， 如 完善 
基因 组 功能 注释 、 挖 掘 新 功能 基因 、 预 测 植物 表 型 、 
发 现 基因 、RNA、 和 蛋白 质 等 物质 的 新 分 类 模式 ， 指 
基因 编辑 。 如 何 进 一 步 将 揭示 与 分 子 表 型 或 终 末 性 状 
相关 遗传 位 点 的 关联 作 图 与 从 DNA. 到 分 子 表 型 信息 流 
模型 相 结合 ， 了 解 表 型 变异 背后 的 因果 变异 ， 实 现 因 
果 变 异 的 优先 级 排序 ， 提 高 表 型 预测 准确 性 ， 进 而 加 
速 遗传 增益 仍然 是 未 来 作物 育种 工作 的 巨大 挑战 。 深 
度 学 习 模 型 发 展 的 巨大 进步 是 分 子 表 型 预测 ， 以 及 这 
些 模型 在 通过 连锁 不 平衡 的 计算 机 中 断 发 现 功能 变异 
中 的 应 用 。 研 究 用 于 全 基因 组 识别 有 害 和 适应 性 变异 
的 深度 学 习 方法 ， 是 未 来 农业 中 基于 编辑 的 作物 遗传 
改良 的 先决 条 件 。 综 上 所 述 ， 深 度 学 习 为 植物 基因 组 
学 与 作物 育种 的 研究 带 来 了 巨大 的 机 遇 ， 为 相关 研究 
与 应 用 提供 新 思路 。 深 度 学 习 模型 可 以 极 大 地 推动 对 
终端 表 型 的 基因 组 变异 的 理解 ， 并 有 希望 应 用 于 作物 
改良 研究 与 实践 中 。 
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Applications and Prospect Analysis of Deep Learning in Plant 
Genomics and Crop Breeding 
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Abstract: [Purpose/Significance] Advances in single-cell sequencing and high-throughput technology have made it possible for plant 
genomics to accumulate large quantities of data describing multidimensional genomic-wide molecular phenotypes at low cost. As 
powerful data mining tools, deep learning techniques can be utilized to further predict and interpret the acquired molecular phenotypes. 
In recent studies, deep learning has been shown to yield significant results in plant genomics and crop breeding research. However, a 
complete review of deep learning applications in plant genomics is lacking. [Method/Process] The input to deep learning applied to 
genomics is usually biological sequences and molecular phenotypes as predictor and target variables, respectively. We introduced the 
workflow from four views: input data pre-processing includes retrieval, coding, and splitting; model construction and training includes 
the selection of model architecture and hyperparameters; model evaluation and interpretability. Specifically, this paper introduces the 
background of deep learning approaches, including the latest graph neural networks; then it discusses two prominent issues in the 
intersection of genomics and deep learning with respect to gene characterization and protein characterization: 1) how to model the flow 
of information from plant genomic DNA sequences to molecular phenotypes; and 2) how deep learning models can be utilized to 
identify functional variation in natural populations? Specifically, the paper summarizes the current status of deep learning applications in 
related fields, which include deep learning and DNA and gene characterization research, interpretability of deep learning in genomics 
applications, graph neural networks in genomics, deep learning and genomic variation research, deep learning in protein prediction, 
ALPHAFOLD in protein prediction, deep learning and crop breeding research, and unsupervised learning in genomics and protein 
characterization. [Results/Conclusions] This article summarizes how traditional deep-learning algorithms, graph deep-learning, 
generative adversarial networks and interpretable AI are applied in current research in order to address these two problems. Finally, the 
prospects for deep learning in future plant genomics research and crop improvement are discussed. Overall, deep learning has provided 
better results than conventional methods in many genomics research directions, and the application of deep learning in genomics has 
yielded early applications of scientific and economic significance. Deep learning offers two distinct advantages: 1) end-to-end learning, 
with the ability to integrate multiple pre-processing steps into a single model; and 2) multimodal data processing capabilities that can 
handle extremely heterogeneous data in genomics. The advancement of deep learning has the potential to expand new research 
perspectives in genomics and crop breeding, and to facilitate larger-scale association studies in both phenotypic and genotypic genomics 
as algorithms become more accurate. 


Keywords: plant genomics; crop breeding; deep learning; graph deep learning; review 
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